热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

都会|前文_FlinkonYarn三部曲之三:提交Flink任务

篇首语:本文由编程笔记#小编为大家整理,主要介绍了FlinkonYarn三部曲之三:提交Flink任务相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Flink on Yarn三部曲之三:提交Flink任务相关的知识,希望对你有一定的参考价值。



欢迎访问我的GitHub



  • 本文是《Flink on Yarn三部曲》系列的终篇,先简单回顾前面的内容:



  1. 《Flink on Yarn三部曲之一:准备工作》:准备好机器、脚本、安装包;

  2. 《Flink on Yarn三部曲之二:部署和设置》:完成CDH和Flink部署,并在管理页面做好相关的设置;

现在Flink、Yarn、HDFS都就绪了,接下来实践提交Flink任务到Yarn执行;


前文链接



  1. 《Flink on Yarn三部曲之一:准备工作》

  2. 《Flink on Yarn三部曲之二:部署和设置》


两种Flink on YARN模式



  • 实践之前,对Flink on YARN先简单了解一下,如下图所示,Flink on Yarn在使用的时候分为两种模式, Job ModeSession Mode

  • Session Mode :在YARN中提前初始化一个Flink集群,以后所有Flink任务都提交到这个集群,如下图:

  • Job Mode :每次提交Flink任务都会创建一个专用的Flink集群,任务完成后资源释放,如下图:

  • 接下来分别实战这两种模式;


准备实战用的数据(CDH服务器)



  • 接下来提交的Flink任务是经典的WordCount,先在HDFS中准备一份文本文件,后面提交的Flink任务都会读取这个文件,统计里面每个单词的数字,准备文本的步骤如下:



  • SSH登录CDH服务器;



  • 切换到hdfs账号: su - hdfs



  • 下载实战用的txt文件:



wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt


  • 创建hdfs文件夹: hdfs dfs -mkdir /input



  • 将文本文件上传到/input目录: hdfs dfs -put ./GoneWiththeWind.txt /input



  • 准备工作完成,可以提交任务试试了。




Session Mode实战



  • SSH登录CDH服务器;

  • 切换到hdfs账号: su - hdfs

  • 进入目录: /opt/flink-1.7.2/

  • 执行如下命令创建Flink集群, -n 参数表示TaskManager的数量, -jm 表示JobManager的内存大小, -tm 表示每个TaskManager的内存大小:

./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024


  • 创建成功后,控制台输出如下图,注意红框中的提示,表明可以通过38301端口访问Flink:

  • 浏览器访问CDH服务器的38301端口,可见Flink服务已经启动:

  • 浏览器访问CDH服务器的8088端口,可见YARN的Application(即Flink集群)创建成功,如下图,红框中是任务ID,稍后结束Application的时候会用到此ID:

  • 再开启一个终端,SSH登录CDH服务器,切换到hdfs账号,进入目录: /opt/flink-1.7.2

  • 执行以下命令,就会提交一个Flink任务(安装包自带的WordCount例子),并指明将结果输出到HDFS的 wordcount-result.txt 文件中:

bin/flink run ./examples/batch/WordCount.jar \\
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\
-output hdfs://192.168.50.134:8020/wordcount-result.txt


  • 执行完毕后,控制台输出如下:

  • flink的WordCount任务结果保存在hdfs,我们将结果取出来看看: hdfs dfs -get /wordcount-result.txt

  • vi打开wordcount-result.txt文件,如下图,可见任务执行成功,指定文本中的每个单词数量都统计出来了:

  • 浏览器访问Flink页面(CDH服务器的38301端口),也能看到任务的详细情况:

  • 销毁这个Flink集群的方法是在控制台执行命令: yarn application -kill application_1580173588985_0002

  • Session Mode的实战就完成了,接下来我们来尝试Job Mode;


Job Mode



  • 执行以下命令,创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的wordcount-result-1.txt文件:

bin/flink run -m yarn-cluster \\
-yn 2 \\
-yjm 1024 \\
-ytm 1024 \\
./examples/batch/WordCount.jar \\
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\
-output hdfs://192.168.50.134:8020/wordcount-result-1.txt


  • 控制台输出如下,表明任务执行完成:

  • 如果您的内存和CPU核数充裕,可以立即执行以下命令再创建一个Flink集群,该集群只用于执行参数中指定的任务(wordCount.jar),结果输出到hdfs的 wordcount-result-2.txt 文件:

bin/flink run -m yarn-cluster \\
-yn 2 \\
-yjm 1024 \\
-ytm 1024 \\
./examples/batch/WordCount.jar \\
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \\
-output hdfs://192.168.50.134:8020/wordcount-result-2.txt


  • 在YARN管理页面可见任务已经结束:

  • 执行命令 hdfs dfs -ls / 查看结果文件,已经成功生成:

  • 执行命令 hdfs dfs -get /wordcount-result-1.txt 下载结果文件到本地,检查数据正常;

  • 至此,Flink on Yarn的部署、设置、提交都实践完成,《Flink on Yarn三部曲》系列也结束了,如果您也在学习Flink,希望本文能够给您一些参考,也建议您根据自身情况和需求,修改ansible脚本,搭建更适合自己的环境;


欢迎关注51CTO博客:程序员欣宸


推荐阅读
  • 本文介绍了如何使用 Node.js 和 Express(4.x 及以上版本)构建高效的文件上传功能。通过引入 `multer` 中间件,可以轻松实现文件上传。首先,需要通过 `npm install multer` 安装该中间件。接着,在 Express 应用中配置 `multer`,以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置,帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]
  • 使用HTML和JavaScript实现视频截图功能
    本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧,并展示了具体的实现步骤和示例代码。 ... [详细]
  • 解决Unreal Engine中UMG按钮长时间按住自动释放的问题
    本文探讨了在Unreal Engine中使用UMG按钮时,长时间按住按钮会导致自动释放的问题,并提供了详细的解决方案。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
  • C#实现文件的压缩与解压
    2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]
  • IOS Run loop详解
    为什么80%的码农都做不了架构师?转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]
  • 大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式
    大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]
  • SIoU Loss 的原理详解及代码实现分析
    本文详细解析了 SIoU Loss 的原理及其在边界框回归任务中的优势,并通过代码实现对其性能进行了深入分析。SIoU Loss 作为一种改进的损失函数,能够更有效地优化目标检测模型的边界框回归效果,提升模型的准确性和鲁棒性。文中还提供了具体的代码示例,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 解决针织难题:R语言编程技巧与常见错误分析 ... [详细]
  • C++ 开发实战:实用技巧与经验分享
    C++ 开发实战:实用技巧与经验分享 ... [详细]
  • REST与RPC:选择哪种API架构风格?
    在探讨REST与RPC这两种API架构风格的选择时,本文首先介绍了RPC(远程过程调用)的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法,从而实现分布式系统的功能调用。相比之下,REST(Representational State Transfer)则基于资源的交互模型,通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点,帮助开发者根据具体需求做出合适的选择。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 利用PaddleSharp模块在C#中实现图像文字识别功能测试
    PaddleSharp 是 PaddleInferenceCAPI 的 C# 封装库,适用于 Windows (x64)、NVIDIA GPU 和 Linux (Ubuntu 20.04) 等平台。本文详细介绍了如何使用 PaddleSharp 在 C# 环境中实现图像文字识别功能,并进行了全面的功能测试,验证了其在多种硬件配置下的稳定性和准确性。 ... [详细]
  • HTML5大文件传输技术深度解析与实践分享
    本文深入探讨了HTML5在Web前端开发中实现大文件上传的技术细节与实践方法。通过实例分析,详细讲解了如何利用HTML5的相关特性高效、稳定地处理大文件传输问题,并提供了可供参考的代码示例和解决方案。此外,文章还讨论了常见的技术挑战及优化策略,旨在帮助开发者更好地理解和应用HTML5大文件上传技术。 ... [详细]
  • 我正致力于利用Azure Functions和System.IO.Compression库,将大量文件高效地压缩并存储到Azure Blob容器中。这种方法不仅提高了存储效率,还优化了数据管理流程。通过这种方式,可以显著减少存储成本,并提升数据访问速度。 ... [详细]
author-avatar
手机用户2502853881
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有